Model Selection

Preference Optimization

# Preference Optimization

Gemma 2 9b It SimPO

Gemma 2.9B model fine-tuned on the gemma2-ultrafeedback-armorm dataset using the SimPO objective for preference optimization tasks

Large Language Model

Llama 3 Instruct 8B SimPO

SimPO is a preference optimization method that eliminates the need for reference reward models, simplifying the traditional RLHF pipeline by directly optimizing language models with preference data.

Large Language Model

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase